This paper develops a clustering method that takes advantage of the sturdiness of model-based clustering, while attempting to mitigate some of its pitfalls. First, we note that standard model-based clustering likely leads to the same number of clusters per margin, which seems a rather artificial assumption for a variety of datasets. We tackle this issue by specifying a finite mixture model per margin that allows each margin to have a different number of clusters, and then cluster the multivariate data using a strategy game-inspired algorithm to which we call Reign-and-Conquer. Second, since the proposed clustering approach only specifies a model for the margins -- but leaves the joint unspecified -- it has the advantage of being partially parallelizable; hence, the proposed approach is computationally appealing as well as more tractable for moderate to high dimensions than a `full' (joint) model-based clustering approach. A battery of numerical experiments on artificial data indicate an overall good performance of the proposed methods in a variety of scenarios, and real datasets are used to showcase their application in practice.
translated by 谷歌翻译
两个随机过程的局部特征的比较可以阐明该过程差异最大的时间或空间。本文提出了一种了解具有一定体积的区域的方法,其中两个过程的边际属性不那么相似。所提出的方法是针对感兴趣的数据本身就是随机过程的设置而完全普遍设计的,因此,在功能数据的背景下,所提出的方法可用于指出与一定体积的最大差异区域的指出。系列和点过程。两个感兴趣的随机过程基础的参数函数是通过基础表示建模的,贝叶斯推断是通过集成的嵌套拉普拉斯近似进行的。数值研究验证了所提出的方法,我们通过犯罪学,金融和医学的案例研究展示了它们的应用。
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
关于使用ML模型的一个基本问题涉及其对提高决策透明度的预测的解释。尽管已经出现了几种可解释性方法,但已经确定了有关其解释可靠性的一些差距。例如,大多数方法都是不稳定的(这意味着它们在数据中提供了截然不同的解释),并且不能很好地应对无关的功能(即与标签无关的功能)。本文介绍了两种新的可解释性方法,即Varimp和Supclus,它们通过使用局部回归拟合的加权距离来克服这些问题,以考虑可变重要性。 Varimp生成了每个实例的解释,可以应用于具有更复杂关系的数据集,而Supclus解释了具有类似说明的实例集群,并且可以应用于可以找到群集的较简单数据集。我们将我们的方法与最先进的方法进行了比较,并表明它可以根据几个指标产生更好的解释,尤其是在具有无关特征的高维问题中,以及特征与目标之间的关系是非线性的。
translated by 谷歌翻译
灾难性的遗忘是阻碍在持续学习环境中部署深度学习算法的一个重大问题。已经提出了许多方法来解决灾难性的遗忘问题,在学习新任务时,代理商在旧任务中失去了其旧任务的概括能力。我们提出了一项替代策略,可以通过知识合并(CFA)处理灾难性遗忘,该策略从多个专门从事以前任务的多个异构教师模型中学习了学生网络,并可以应用于当前的离线方法。知识融合过程以单头方式进行,只有选定数量的记忆样本,没有注释。教师和学生不需要共享相同的网络结构,可以使异质任务适应紧凑或稀疏的数据表示。我们将我们的方法与不同策略的竞争基线进行比较,证明了我们的方法的优势。
translated by 谷歌翻译
图神经网络(GNN)已成为与图形和类似拓扑数据结构有关的无数任务的骨干。尽管已经在与节点和图形分类/回归任务有关的域中建立了许多作品,但它们主要处理单个任务。在图形上的持续学习在很大程度上没有探索,现有的图形持续学习方法仅限于任务的学习方案。本文提出了一个持续学习策略,该策略结合了基于架构和基于内存的方法。结构学习策略是由强化学习驱动的,在该学习中,对控制器网络进行了这种方式,以确定观察到新任务时从基本网络中添加/修剪的最佳节点,从而确保足够的网络能力。参数学习策略的基础是黑暗体验重播方法的概念,以应对灾难性的遗忘问题。我们的方法在任务收入学习和课堂学习设置中都通过几个图的连续学习基准问题进行了数值验证。与最近发表的作品相比,我们的方法在这两种设置中都表明了性能的提高。可以在\ url {https://github.com/codexhammer/gcl}上找到实现代码。
translated by 谷歌翻译
跨域多式分类是一个具有挑战性的问题,要求快速域适应以处理在永无止境和快速变化的环境中的不同但相关的流。尽管现有的多式分类器在目标流中没有标记的样品,但它们仍然会产生昂贵的标签成本,因为它们需要完全标记的源流样品。本文旨在攻击跨域多发行分类问题中极端标签短缺问题的问题,在过程运行之前,仅提供了很少的标记源流样品。我们的解决方案,即从部分地面真理(Leopard)中学习的流流过程,建立在一个灵活的深度聚类网络上,在该网络中,其隐藏的节点,层和簇被添加并在不同的数据分布方面动态删除。同时的特征学习和聚类技术为群集友好的潜在空间提供了同时的特征学习和聚类技术的基础。域的适应策略依赖于对抗域的适应技术,在该技术中,训练特征提取器以欺骗域分类器对源和目标流进行分类。我们的数值研究证明了豹子的功效,在24例中,与突出算法相比,它可以提高性能的改善。豹子的源代码在\ url {https://github.com/wengweng001/leopard.git}中共享。
translated by 谷歌翻译
许多微体系式优化为深度神经网络解锁了巨大的处理能力,从而促进了AI革命。随着这种优化的精疲力尽,现代AI的增长现在是通过培训系统的性能,尤其是其数据流动的。我们没有专注于单个加速器,而是研究了全系统规模的大规模培训的数据移动特征。基于我们的工作量分析,我们设计了HammingMesh,这是一种新颖的网络拓扑,以低成本提供高的带宽,并具有很高的工作计划灵活性。具体而言,HammingMesh可以支持具有两个并行性的两个维度的深度学习培训工作的完整带宽和隔离。此外,它还为通用流量的高全球带宽提供支持。因此,HammingMesh将为未来的大规模深度学习系统供电,并具有极端的带宽要求。
translated by 谷歌翻译
本文涉及一种特殊的认知失明味,称为c-causal失明或C-CB。获得目标的政策导致避免国家的政策。C -CB的一个字面例子是Kurt G \“ Odel决定“害怕被毒死”饿死 - 以此为前提A.目标是“避免被毒死(为了不死)”:C,计划或政策是“不吃东西”:B,而实际结果是“死去的”:不是C- G \“ Odel想要避免开始的状态。像许多人一样,g \” Odel采取了一种导致他想避免的结果的策略。提出了一个实验计算框架,以显示使用隐藏的Markov模型在大脑计算,逻辑和计算机计算中C-CB之间的同构关系。
translated by 谷歌翻译
神经胶质瘤是由不同高度异质组织学子区域组成的脑肿瘤。鉴定相关肿瘤子结构的图像分析技术具有改善患者诊断,治疗和预后的高潜力。但是,由于神经胶质瘤的异质性高,分割任务目前是医学图像分析领域的主要挑战。在目前的工作中,研究了由神经胶质瘤的多模式MRI扫描组成的2018年脑肿瘤分割(BRAT)挑战的数据库。提出了基于卷积神经网络(CNN)的设计和应用的分割方法,并结合了原始的后处理技术,其计算需求较低。后处理技术是分割中获得的结果的主要负责。分段区域是整个肿瘤,肿瘤核和增强的肿瘤核,分别获得等于0.8934、0.8376和0.8113的平均骰子系数。这些结果达到了由挑战的获胜者确定的神经胶质瘤分割的最新现状。
translated by 谷歌翻译